R et Dataviz
DaMS 3 - Année
universitaire 2025-2026
Réalisé par :
Leny SOULARD
Kevin MIEVRE
Massyl HELLI
Leny ALGUAZIL
library("ggplot2")
library(readr)
library(janitor)
library(lubridate)
library(stringr)
library(forcats)
library(dplyr)
library(patchwork)
library(DT)
library(plotly)
data_path <- "data/complete.csv"
raw_data <- readr::read_csv(data_path,
col_types = cols(.default = "c"))
ufo_data <- raw_data %>%
janitor::clean_names() %>%
mutate(
latitude = as.numeric(latitude),
longitude = as.numeric(longitude),
duration_seconds = as.numeric(duration_seconds),
datetime = lubridate::mdy_hm(datetime)
) %>%
filter(
!is.na(datetime),
!is.na(latitude),
!is.na(longitude),
!is.na(shape),
!is.na(duration_seconds)
) %>%
filter(
country == "us",
lubridate::year(datetime) >= 1949
) %>%
filter(
duration_seconds > 0,
duration_seconds < (3600 * 24)
) %>%
mutate(
year = lubridate::year(datetime),
month = lubridate::month(datetime, label = TRUE, abbr = FALSE),
hour = lubridate::hour(datetime),
weekday = lubridate::wday(datetime, label = TRUE, abbr = FALSE),
time_of_day = case_when(
hour >= 6 & hour < 12 ~ "Matin (06-12h)",
hour >= 12 & hour < 18 ~ "Après-midi (12-18h)",
hour >= 18 & hour < 22 ~ "Soirée (18-22h)",
TRUE ~ "Nuit (22-06h)"
)
) %>%
mutate(
state = toupper(state),
shape = tolower(shape),
shape = case_when(
shape %in% c("round", "sphere") ~ "circle",
shape %in% c("lights") ~ "light",
shape %in% c("cigar-shaped") ~ "cigar",
shape %in% c("fireball", "flare") ~ "fireball",
TRUE ~ shape
),
shape = forcats::fct_lump_n(shape, n = 10, other_level = "Other")
) %>%
select(
datetime, year, month, hour, weekday, time_of_day,
city, state, latitude, longitude,
shape, duration_seconds, comments
)
Bilan statistique des signalements d’OVNIs
Contexte Ce rapport s’appuie sur une analyse exploratoire des données (AED) réalisée à partir d’un jeu de données disponible sur Kaggle et issu des archives du National UFO Reporting Center (NUFORC). Il contient plus de 80 000 déclarations d’observations d’OVNIs sur une longue période. L’objectif est d’utiliser R et ses outils afin de transformer ces données brutes en indicateurs utiles et mettre en évidence certaines tendances.
L’analyse cherche à dresser un portrait statistique des signalements selon le temps, la localisation et la description des phénomènes, sans tirer de conclusions sur leur origine. Cependant nous emmetrons certaines hypothèses qui pourraient expliquer certains résultats.
Structure du jeu de données Le fichier contient plusieurs colonnes essentielles pour l’analyse. Certaines devront être nettoyées au préalable afin d’assurer une meilleure compréhension des données et d’obtenir des résultats plus fiables.
| Variable | Description/Rôle Clé |
|---|---|
| datetime | Date et heure précises de l’observation (Base de l’analyse chronologique). |
| city | Nom de la ville. |
| state | Abréviation de l’État (principalement US). |
| country | Code du pays (ex. : ‘us’). |
| shape | Forme de l’objet rapporté. Variable catégorielle clé. |
| duration (seconds) | Durée de l’observation en secondes. Sujette à un nettoyage rigoureux. |
| duration (hours/min) | Durée fournie dans son format original. |
| comments | Description narrative détaillée de l’événement. |
| date posted | Date d’enregistrement du rapport. |
| latitude | Coordonnée de latitude (pour la cartographie). |
| longitude | Coordonnée de longitude (pour la cartographie). |
La taille de la population de la base de données est d’environ 80 000 individus et couvre une période allant de 1949 à 2014.
Nous nous sommes dans un premier temps demandé comment le nombre d’observations évolue dans le temps au vu du nombre d’années disponible dans nos données. Pour rester dans une analyse temporelle, nous avons ensuite décidé de voir si au cours d’une année le nombre varie selon les mois, mais aussi si le nombre varie en fonction de l’heure de la journée.
Avec ce premier graphique, on voit bien que depuis le début des années 2000, le nombre d’observations explose. Cela peut être dû à plusieurs facteurs comme la potentielle facilité de rapporter une observation avec les nouvelles technologies émergentes ou encore la culture populaire qui aide à rendre ce sujet acceptable socialement.
Grâce à ces deux graphiques, on peut voir que le nombre d’observations varie bien selon le mois et l’heure de la journée. De même que pour les variations au cours des années, on peut tenter d’expliquer cela par plusieurs facteurs. En premier lieu, les observations sont plus courantes durant la nuit ce qui peut être expliqué par le fait que la nuit les lumières sont plus visibles et nous avons moins de repères visuels avec le manque de lumière naturelle. En deuxième lieu, on peut voir que durant l’été il y a une hausse plutôt importante d’observations qui peut être expliquée par le fait que les gens vont avoir tendance à être plus dehors lorsque la météo le permet et que les journées sont plus longues.
Nous avons voulu avoir une vision plus précise encore en fonction des jours et des heures pour les apparitions. Pour ce faire nous avons créé une heatmap qui nous résume parfaitement les apparitions.
On peut donc voir qu’une tendance se démarque clairement avec une concentration du nombre d’observations très élevée le samedi entre 21 h et 22 H. Pour expliquer ceci, on peut simplement reprendre nos hypothèses précédentes et dire que cela est dû au fait que les personnes ont plus tendance à sortir le week-end (spécialement le samedi soir) en ajoutant le fait que la nuit favorise les observations (manque de repère visuel, lumières plus visibles, etc).
Une des choses qui interpelle le plus quand on parle d’OVNI peut notamment être la forme sous laquelle l’OVNI a été observé. Bien que nous ayons un grand nombre d’individus dans notre base de données, on retrouve de nombreuses fois les mêmes formes ou le même type de forme comme : une lumière, un rond ou une sphère, un triangle, un cigare et encore quelques autres. Pour faciliter l’analyse nous avons regroupé certaines formes ensemble quand celles-ci sont quasiment similaires.
L’analyse de cet ensemble de données révèle des tendances claires. L’augmentation des observations au fil du temps, en particulier depuis les années 2000, suggère une influence culturelle et technologique. Les observations sont plus fréquentes la nuit et en été, ce qui correspond à des périodes où les gens sont plus susceptibles d’être à l’extérieur et où les phénomènes lumineux sont plus visibles. Enfin, la prédominance de formes simples comme “lumière”, “cercle” et “triangle” domine les rapports, ce qui peut s’expliquer par la difficulté d’identifier des formes complexes à distance et dans l’obscurité.